智能论文笔记

AdaTask: A Task-aware Adaptive Learning Rate Approach to Multi-task Learning

Enneng Yang , Junwei Pan , Ximei Wang , Haibin Yu , Li Shen , Xihua Chen , Lei Xiao , Jie Jiang , Guibing Guo

分类：机器学习 | 计算机视觉

2022-11-28

Multi-task learning (MTL) models have demonstrated impressive results in computer vision, natural language processing, and recommender systems. Even though many approaches have been proposed, how well these approaches balance different tasks on each parameter still remains unclear. In this paper, we propose to measure the task dominance degree of a parameter by the total updates of each task on this parameter. Specifically, we compute the total updates by the exponentially decaying Average of the squared Updates (AU) on a parameter from the corresponding task.Based on this novel metric, we observe that many parameters in existing MTL methods, especially those in the higher shared layers, are still dominated by one or several tasks. The dominance of AU is mainly due to the dominance of accumulative gradients from one or several tasks. Motivated by this, we propose a Task-wise Adaptive learning rate approach, AdaTask in short, to separate the \emph{accumulative gradients} and hence the learning rate of each task for each parameter in adaptive learning rate approaches (e.g., AdaGrad, RMSProp, and Adam). Comprehensive experiments on computer vision and recommender system MTL datasets demonstrate that AdaTask significantly improves the performance of dominated tasks, resulting SOTA average task-wise performance. Analysis on both synthetic and real-world datasets shows AdaTask balance parameters in every shared layer well.

translated by 谷歌翻译

Transferable Cross-Tokamak Disruption Prediction with Deep Hybrid Neural Network Feature Extractor

Wei Zheng , Fengming Xue , Ming Zhang , Zhongyong Chen , Chengshuo Shen , Xinkun Ai , Nengchao Wang , Dalong Chen , Bihao Guo , Yonghua Ding

分类：机器学习

2022-08-20

预测不同托卡马克人的破坏是要克服的巨大障碍。未来的Tokamaks在高性能排放时几乎无法忍受中断。很少有高性能的破坏排放几乎无法构成丰富的训练集，这使得当前数据驱动的方法难以获得可接受的结果。能够将在一个Tokamak训练的中断预测模型转移到另一种训练的机器学习方法以解决该问题。关键是一个包含特征提取器的破坏预测模型，该模型能够在Tokamak诊断数据中提取常见的破坏前体痕迹，并具有可转移的破坏分类器。基于上面的问题，该论文首先提出了专门针对Tokamaks上的普通诊断中的破坏前体特征而设计的深融合功能提取器，该特征是根据当前已知的破坏前体，为可转移模型提供了有希望的基础。通过与J-Text上的手动特征提取进行比较，可以证明融合功能提取器。基于在J-TEXT上训练的功能提取器，将中断预测模型转移到East数据中，仅来自East实验的20次放电。该性能与经过1896年出院的模型相当。从其他模型培训方案之间的比较，转移学习表明了其在预测不同托卡马克人的破坏方面的潜力。

translated by 谷歌翻译

An Interpretability Evaluation Benchmark for Pre-trained Language Models

Yaozong Shen , Lijie Wang , Ying Chen , Xinyan Xiao , Jing Liu , Hua Wu

分类：自然语言处理

2022-07-28

尽管预训练的语言模型（LMS）在许多NLP任务中都取得了重大改进，但人们越来越关注探索LMS的能力并解释其预测。但是，现有作品通常仅着眼于某些下游任务的特定功能。缺乏直接评估蒙版单词预测性能和预训练LMS的解释性的数据集。为了填补空白，我们提出了一个新颖的评估基准，以提供英语和中文注释的数据。它在多个维度（即语法，语义，知识，推理和计算）中测试LMS能力。此外，它提供了满足足够和紧凑性的仔细注释的令牌级别的理由。它包含每个原始实例的扰动实例，以便将扰动下的基本原理一致性用作忠实的指标，即解释性的观点。我们在几个广泛使用的预训练的LMS上进行实验。结果表明，他们在知识和计算的维度上表现较差。而且它们在所有维度上的合理性远非令人满意，尤其是当理由缩短时。此外，我们评估的预训练的LMS在语法感知数据上并不强大。我们将以\ url {http：// xyz}发布此评估基准，并希望它可以促进预训练的LMS的研究进度。

translated by 谷歌翻译

A Closed-Loop Perception, Decision-Making and Reasoning Mechanism for Human-Like Navigation

Wenqi Zhang , Kai Zhao , Peng Li , Xiao Zhu , Yongliang Shen , Yanna Ma , Yingfeng Chen , Weiming Lu

分类：机器人

2022-07-25

可靠的导航系统在机器人技术和自动驾驶中具有广泛的应用。当前方法采用开环过程，将传感器输入直接转换为动作。但是，这些开环方案由于概括不佳而在处理复杂而动态的现实情况方面具有挑战性。在模仿人类导航的情况下，我们添加了一个推理过程，将动作转换回内部潜在状态，形成了两阶段的感知，决策和推理的封闭环路。首先，VAE增强的演示学习赋予了模型对基本导航规则的理解。然后，在RL增强交互学习中的两个双重过程彼此产生奖励反馈，并共同增强了避免障碍能力。推理模型可以实质上促进概括和鲁棒性，并促进算法将算法的部署到现实世界的机器人，而无需精心转移。实验表明，与最先进的方法相比，我们的方法更适合新型方案。

translated by 谷歌翻译

Modeling Associative Plasticity between Synapses to Enhance Learning of Spiking Neural Networks

Haibo Shen , Juyu Xiao , Yihao Luo , Xiang Cao , Liangqi Zhang , Tianjiang Wang

分类：神经与进化计算 | 计算机视觉 | 机器学习

2022-07-24

尖峰神经网络（SNN）是第三代人工神经网络，可以在神经形态硬件上实施节能。但是，尖峰的离散传播给坚固且高性能的学习机制带来了重大挑战。大多数现有的作品仅着眼于神经元之间的学习，但忽略了突触之间的影响，从而导致稳健性和准确性丧失。为了解决这个问题，我们通过对突触（APB）（APB）之间的关联可塑性（APB）进行建模，从而提出了一种强大而有效的学习机制。使用提出的APB方法，当其他神经元同时刺激时，同一神经元的突触通过共享因素相互作用。此外，我们提出了一种时空种植和翻转（STCF）方法，以提高网络的概括能力。广泛的实验表明，我们的方法在静态CIFAR-10数据集和神经形态MNIST-DV的最新性能上实现了卓越的性能，通过轻量级卷积网络，CIFAR10-DVS数据集。据我们所知，这是第一次探索突触之间的学习方法和神经形态数据的扩展方法。

translated by 谷歌翻译

Improved Regularization of Event-based Learning by Reversing and Drifting

Haibo Shen , Yihao Luo , Xiang Cao , Liangqi Zhang , Juyu Xiao , Tianjiang Wang

分类：计算机视觉 | 机器学习

2022-07-24

事件摄像机在挑战场景中具有巨大的潜力，因为其高度分辨率，高动态范围，低功耗和无运动模糊的优势。但是，基于事件的学习受到不足的概括能力的阻碍。在本文中，我们首先分析不同亮度变化对事件数据的影响。然后，我们提出了两种新颖的增强方法：事件逆转和eventdrift。通过将事件逆转和漂移到时空或极性域中的相应位置，提出的方法会生成受不同亮度变化影响的样品，从而改善了基于事件的学习的鲁棒性，并导致更好的概括。N-CARS，N-Caltech101和CIFAR10-DVS数据集的广泛实验表明，我们的方法是一般且非常有效的。

translated by 谷歌翻译

PanGu-Coder: Program Synthesis with Function-Level Language Modeling

Fenia Christopoulou , Gerasimos Lampouras , Milan Gritta , Guchun Zhang , Yinpeng Guo , Zhongqi Li , Qi Zhang , Meng Xiao , Bo Shen , Lin Li

分类：机器学习 | 人工智能 | 自然语言处理

2022-07-22

我们提出了Pangu-Coder，这是一种仅预读的解码器语言模型，该模型采用pangu-alpha架构进行文本到代码生成，即给定自然语言问题描述的编程语言解决方案的合成。我们使用两阶段策略训练Pangu-Coder：第一阶段采用因果语言建模（CLM）来预先培训原始编程语言数据，而第二阶段则使用因果语言建模和掩盖语言建模（MLM）的组合培训目标，专注于文本到代码生成的下游任务，并培训松散的自然语言程序定义和代码功能。最后，我们讨论了pangu-coder-ft，该pander the是通过竞争性编程问题和代码与持续集成测试的结合进行了微调的。我们评估了pangu-coder，重点是它是否生成功能上正确的程序，并证明它在参加较小的上下文窗口和较少的数据培训的同时，它比诸如Codex之类的类似大小的模型（例如Codex）实现等效性或更好的性能。

translated by 谷歌翻译

Image Synthesis with Disentangled Attributes for Chest X-Ray Nodule Augmentation and Detection

Zhenrong Shen , Xi Ouyang , Bin Xiao , Jie-Zhi Cheng , Qian Wang , Dinggang Shen

分类：计算机视觉

2022-07-19

胸部X射线（CXR）图像中的肺结节检测是肺癌的早期筛查。基于深度学习的计算机辅助诊断（CAD）系统可以支持放射线医生在CXR中进行结节筛选。但是，它需要具有高质量注释的大规模和多样化的医学数据，以训练这种强大而准确的CAD。为了减轻此类数据集的有限可用性，为了增加数据增强而提出了肺结核合成方法。然而，以前的方法缺乏产生结节的能力，这些结节与检测器所需的大小属性相关。为了解决这个问题，我们在本文中介绍了一种新颖的肺结综合框架，该框架分别将结节属性分为三个主要方面，包括形状，大小和纹理。基于GAN的形状生成器首先通过产生各种形状掩模来建模结节形状。然后，以下大小调制可以对像素级粒度中生成的结节形状的直径进行定量控制。一条粗到细门的卷积卷积纹理发生器最终合成了以调制形状掩模为条件的视觉上合理的结节纹理。此外，我们建议通过控制数据增强的分离结节属性来合成结节CXR图像，以便更好地补偿检测任务中容易错过的结节。我们的实验证明了所提出的肺结构合成框架的图像质量，多样性和可控性的增强。我们还验证了数据增强对大大改善结节检测性能的有效性。

translated by 谷歌翻译

Simple Open-Vocabulary Object Detection with Vision Transformers

Matthias Minderer , Alexey Gritsenko , Austin Stone , Maxim Neumann , Dirk Weissenborn , Alexey Dosovitskiy , Aravindh Mahendran , Anurag Arnab , Mostafa Dehghani , Zhuoran Shen

分类：计算机视觉

2022-05-12

将简单的体系结构与大规模预训练相结合已导致图像分类的大量改进。对于对象检测，预训练和缩放方法的确定性不佳，尤其是在长尾和开放式摄影的环境中，训练数据相对较少。在本文中，我们提出了一个强大的配方，用于将图像文本模型转移到开放式对象检测中。我们使用具有最小修改，对比度文本预训练和端到端检测微调的标准视觉变压器体系结构。我们对该设置的缩放属性的分析表明，增加图像级预训练和模型大小在下游检测任务上产生一致的改进。我们提供适应性策略和正规化，以实现零击文本条件和单次图像条件对象检测的非常强劲的性能。代码和型号可在GitHub上找到。

translated by 谷歌翻译

Radiology Report Generation with a Learned Knowledge Base and Multi-modal Alignment

Shuxin Yang , Xian Wu , Shen Ge , Xingwang Wu , S. Kevin Zhou , Li Xiao

分类：自然语言处理 | 计算机视觉

2021-12-30

在诊所，放射学报告对于指导患者的治疗至关重要。不幸的是，报告写作对放射科医师造成了沉重的负担。为了有效地减少这种负担，在此提出了一种从胸部X射线的报告生成的自动，多模态方法。我们的方法，通过观察到放射学报告的描述与X射线图像高度相关，具有两个不同的模块：（i）学习知识库。为了吸收嵌入上述相关性的知识，我们根据文本嵌入自动构建知识库。（ii）多模态对齐。为了促进报告，疾病标签和图像之间的语义对齐，我们明确地利用文本嵌入来指导视觉特征空间的学习。我们评估所提出的模型的表现，使用来自公共IU和模拟 - CXR数据集的自然语言生成和临床疗效。我们的消融研究表明，每个模块都有助于提高所生成的报告的质量。此外，借助两种模块，我们的方法显然优于最先进的方法。

translated by 谷歌翻译